Chatbot AI tỷ đô tham vọng thay thế Google bị cáo buộc lấy cắp nội dung

Perplexity AI là một công cụ tìm kiếm được hỗ trợ bởi AI giúp người dùng tìm và chia sẻ kiến thức hiệu quả hơn. Không giống như ChatGPT, Perplexity AI còn cung cấp liên kết đến các nguồn được sử dụng để tạo câu trả lời, giúp người dùng dễ dàng xác minh thông tin.

Perplexity AI hứa hẹn mang đến trải nghiệm tìm kiếm khác biệt, thay vì liệt kê kết quả tìm kiếm, công cụ này sẽ tự động tổng hợp và cung cấp câu trả lời trực tiếp cho người dùng. Tuy nhiên, tham vọng thay thế Google của Perplexity AI đang bị lu mờ bởi những cáo buộc "đạo văn" từ các trang báo.

Trang Wired đã gọi Perplexity AI là "cỗ máy nhảm nhí" khi phát hiện ra rằng công cụ này bỏ qua yêu cầu không được thu thập dữ liệu từ trang web của họ.

Tệ hơn, Perplexity AI còn bị cáo buộc "đạo văn" chính bài báo vạch trần hành vi "đạo văn" của mình. Ông Sean Hollister, cây viết của Wired nhận định: "Đây là hoạt động báo chí trả phí, Wired thậm chí đã chặn Perplexity trong tệp robots.txt, vậy mà công cụ này vẫn cố tình thực hiện các hoạt động thu thập dữ liệu. Có thể họ không phải là đơn vị duy nhất làm điều này, nhưng đó không phải là cái cớ."

Vụ việc trở nên ồn ào hơn khi CEO Perplexity AI, ông Aravind Srinivas, có những phát ngôn gây tranh cãi. Khi được Fast Company hỏi về việc công cụ của mình lấy cắp nội dung từ các trang báo trả phí như Wired, ông Srinivas đã cố gắng đổ lỗi cho bên thứ ba cung cấp dịch vụ thu thập dữ liệu web. Tuy nhiên, ông Srinivas từ chối tiết lộ danh tính bên thứ ba này. CEO Perplexity AI thậm chí còn ngụy biện rằng việc phớt lờ tệp robots.txt không phải là bất hợp pháp.

Thông thường, kết quả tra cứu của Google là gửi lưu lượng truy cập đến các nguồn thông tin. Nhưng bằng cách cung cấp một câu trả lời chính xác thay vì hướng người dùng truy cập vào các nguồn chính, Perplexity khiến các trang nguồn mất một lượng doanh thu từ quảng cáo khi người dùng đã tìm được kết quả tra cứu mà không cần truy cập vào các trang nguồn này.

Không chỉ thế, Perplexity còn tiến xa hơn với sản phẩm Pages, là một tính năng tự động tạo ra một "báo cáo" tóm tắt dựa trên các nguồn thông tin chính mà công cụ này thu thập dữ liệu về. Và nó không chỉ trích dẫn một hoặc hai câu để trả lời trực tiếp câu hỏi của người dùng, mà là tạo ra toàn bộ bài viết tổng hợp và chính xác theo nghĩa là nó đang "đạo văn" các nguồn mà nó sử dụng.

Trang Forbes đã phát hiện ra Perplexity đang lách qua các phương thức trả phí của trang web để thu thập và cung cấp các bản tóm tắt về các bài viết.

Mặc dù Forbes có mức thu phí theo định mức đối với một số bài viết, nhưng các tác phẩm cao cấp sẽ có một mức thu phí cố định riêng. Perplexity không chỉ bằng cách nào đó né được phương thức này mà còn trích dẫn hầu như toàn bộ tác phẩm gốc để sử dụng cho báo cáo của mình.

Sự việc Perplexity AI "đạo văn" dấy lên lo ngại về nguy cơ thông tin sai lệch, đặc biệt là trong lĩnh vực y tế. Theo Forbes, Perplexity AI đã sử dụng thông tin từ các bài đăng trên blog được tạo bởi AI, vốn không đáng tin cậy, để cung cấp thông tin y tế cho người dùng.

Vụ bê bối "đạo văn" của Perplexity AI diễn ra trong bối cảnh cuộc chiến chống lại các chương trình tự động (bot) thu thập dữ liệu đang ngày càng nóng. Mới đây, Reddit đã tuyên bố sẽ chặn hầu hết các chương trình tự động truy cập dữ liệu công khai của nền tảng này.

Theo đó, các bên muốn sử dụng dữ liệu của Reddit cho mục đích thương mại, bao gồm cả việc huấn luyện mô hình AI, sẽ phải ký kết thỏa thuận cấp phép. Luật sư trưởng của Reddit, ông Ben Lee, cho biết động thái này nhằm ngăn chặn các đối tượng xấu lợi dụng dữ liệu của Reddit và khẳng định việc cho phép truy cập dữ liệu trong tệp robots.txt không đồng nghĩa với việc được sử dụng dữ liệu một cách tùy tiện.

Bất chấp những lùm xùm, Perplexity AI vẫn nhận được sự quan tâm lớn từ giới đầu tư, với vòng gọi vốn mới nhất được cho là lên tới hàng trăm triệu USD. Công ty cũng tích cực phát triển các tính năng mới, chẳng hạn như Pages, cho phép tạo ra các trang web tùy chỉnh dựa trên yêu cầu của người dùng. Liệu Perplexity AI có thể khắc phục những sai lầm trong quá khứ và hiện thực hóa tham vọng trở thành "công cụ trả lời" hàng đầu?